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摘 要 人 脑 如 何 表 征 语义 信息 一 直 以 来 是 认 知 神经 科学 的 核心 问题 ,传统 研究 主要 通过 人 
为 操纵 刺激 属性 或 任务 要 求 等 实验 方法 来 定位 语义 表征 脑 区 ， 这 类 方法 虽然 取得 了 诸多 成 
R, 但 是 依然 存在 难以 详细 量化 语义 信息 和 语 境 效应 等 问题 。 基 于 语义 的 分 布 式 假设 ,自然 
语言 处 理 (NLP) 技 术 将 离散 的 、 难以 客观 量化 的 语义 信息 转变 为 统一 的 、 可 计算 的 向 量 形式 ， 
极 大 提高 了 语义 信息 的 刻画 精度 ， 提 供 了 有 效 量化 语 境 和 句法 等 信息 的 工具 。 运 用 NLP 技 
术 提 取 刺 激 语义 信息 , 并 通过 表征 相似 性 分 析 或 线性 回归 建立 语义 向 量 与 脑 活 动 模式 的 映射 
关系 ,研究 者 发 现 表 征 语义 信息 的 神经 结构 广泛 分 布 在 蜂 叶 、 额 叶 和 枕 叶 等 多 个 脑 区 。 未 来 
研究 可 引入 知识 图 谱 和 多 模 态 融合 模型 等 更 复杂 的 语义 表示 方法 , 将 语言 模型 用 于 评估 特殊 
人 群 语言 能 力 ， 或 利用 认 知 神经 科学 实验 来 提高 深度 语言 模型 的 可 解释 性 。 
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语言 作为 一 种 抽象 符号 , 是 人 类 进行 意义 表达 和 信息 交流 的 最 重要 的 工具 。 基 于 有 限 数 
量 语言 单位 的 组 合 ， 人 们 可 以 理解 和 表达 无 穷 多 的 信息 ， 包 括 但 不 限于 知识 、 信 念 、 意 图 、 
情感 等 。 揭 示人 脑 如 何 存储 、 通 达 与 提取 语义 一 直 是 认 知 神经 科学 的 核心 问题 之 一 。 为 了 探 
究 语 义 表 征 和 加 工 的 神经 基础 , 研究 者 通常 采用 的 思路 是 操纵 刺激 属性 或 任务 要 求 , 对 比 不 
同 条 件 下 脑 活 动 模式 的 异同 。 例 如 ， 在 词汇 判断 任务 中 对 比 真 词 与 假 词 激活 脑 区 的 差异 
(Pulvermiiller, 2013); 或 对 于 相同 语言 刺激 , 对 比 语义 与 语音 判断 任务 的 脑 活动 差异 (Poldrack 
et al., 1999)。 基 于 严格 实验 控制 和 条 件 间 对 比 的 研究 :范式 取得 了 一 系列 重要 成 果 ， 然 而 在 
探究 语义 的 脑 表征 与 加 工 问题 上 存在 以 下 局 限 。 
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第 一 ,对 语义 特征 的 刻画 依赖 人 工 评定 , 且 颗 粒度 较 粗 ,日 常生 活 中 交流 情境 复杂 多 变 ， 
但 人 们 只 需 掌握 少量 的 词语 即 可 满足 言语 交流 需求 ， 例 如 在 汉语 中 590 个 字 就 已 经 覆盖 了 
80% 的 日 常用 字 ( 中 华人 民 共 和 国教 育 部 ,2013)。 有 限 的 文字 能 够 组 合成 无 限 的 意思 ,其 原因 
于 人 们 对 每 一 词汇 都 构建 了 丰富 的 心理 表征 , 不 同 词汇 在 多 个 维度 上 存在 微妙 差异 。 基 于 
心理 学 实验 或 语言 学 分 类 方法 ,当前 研究 对 语义 关系 的 度量 大 多 停留 在 粗 颗 粒度 层面 , 例如 
区 分 名 词 与 动词 ， 生 命 类 与 非 生命 类 词 等 。 为 了 细 化 对 语义 的 表示 ,最 近 有 研究 者 从 心理 维 
度 对 词语 概念 进行 度量 ， 例 如 采用 时 间 、 空 间 、 数 量 、 唤 醒 度 等 12 个 维度 来 刻画 抽象 概念 
ia] (X. Wang et al., 2018); 或 是 采用 包括 感觉 、 运 动 、 时 间 、 空 间 、 社 会 认 知 等 成 分 在 内 的 
65 个 体验 维度 来 表示 概念 (Binder et al., 2016)。 基 于 心理 维度 的 语义 表示 方法 能 刻画 概念 本 
身 以 及 概念 间 的 关系 ， 可 解释 性 较 高 ， 但 仍 具 有 一 定 的 局 限 性 。 例 如 ， 维 度 的 选取 由 研究 者 
> 主观 确定 ,维度 选取 的 合理 性 和 完整 性 有 待 检 验 。 此 外 ,对 词义 的 量化 主要 通过 被 试 主观 判 
定 获得 ， 结 果 受 被 试 个 体 知识 与 经 验 的 影响 较 大 。 最 后 ， 被 试 评定 法 耗 时 费力 ， 难 以 推广 至 
所 有 的 词汇 , 难以 全 面 履 盖 不 同 语 境 下 词语 的 多 个 含义 , 并 且 不 同 研究 者 之 间 选 取 的 词 表 与 
维度 有 所 不 同 ， 增 加 了 研究 结果 间 的 比较 与 整合 难度 。 

第 二 ， 语 境 效应 难以 量化 。 世 界 各 地 的 语言 系统 里 ， 大 部 分 字 或 词 都 可 指 代 多 种 含义 ， 
例如 在 英语 中 80% 以 上 的 单词 都 存在 一 词 多 义 现象 (Rodd etal., 2002)。 在 真实 情境 下 ， 个 体 
所 激活 的 语言 符号 含义 很 大 程度 上 取决 于 语 境 , 换言之 , 对 语言 符号 意义 的 表征 和 提取 是 动 


态 的 、 依 赖 语 境 的 (Yee & Thompson-Schill, 2016)， 例 如 在 夏天 和 冬天 提 到 “空调 ”时 会 倾向 
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c 于 联想 到 相反 的 功能 。 然 而， 由 于 语 境 本 身 的 复杂 性 ,很 难 通过 实验 设计 手段 对 语 境 效应 进 

rT 行 客观 度量 。 因 此 ， 当 前 大 多 数 研究 使 用 孤立 呈现 的 语言 刺激 、 打 散 句 法 或 语义 的 句子 等 高 
度 控制 的 材料 , 但 它们 与 日 常生 活 中 的 语言 使 用 相 比 仍 有 一 段 距离 。 要 回答 关于 人 脑 如 何 表 
征 与 加 工 语 境 ， 以 及 语义 表征 如 何 受 语 境 信息 的 动态 影响 等 问题 仍 面临 着 较 大 的 挑战 。 


第 三 , 篇 章 (discourse) 主 题 信息 难以 量化 。 篇 章 ( 例 如 新 闻 报道 、 故 事 ) 由 词 和 句子 以 复杂 
的 关系 连接 而 成 ， 不 同 部 分 间 存 在 语义 关联 ， 能 表达 完整 连贯 的 含义 (主题 )。 为 了 探究 对 篇 
章 语义 信息 的 加 工 和 表征 ， 心 理学 研究 者 通常 将 完整 篇 章 与 同一 篇 章 在 不 同 水 平 ( 词 、 句 子 
或 段落 ) 打 乱 后 的 材料 进行 对 比 (Hasson et al., 2008; Lerner et al., 2011; Simony et al., 2016)。 然 
而 ， 打 乱 后 的 材料 在 节点 处 的 复杂 度 与 难度 更 大 (可 能 引起 更 强 的 脑 激 活 )， 人 们 会 倾向 于 学 
试 重新 组 织 与 整合 打 乱 的 材料 以 使 其 语义 连贯 , 因此 条 件 间 相 减 的 方式 可 能 无 法 准确 检测 到 
特异 于 篇 章 的 语义 加 工 。 此 外 ,该 实验 方法 难以 度量 篇 章 内 不 同 部 分 的 语义 结构 关系 以 及 不 
同 篇 章 之 间 的 语义 距离 。 


鉴于 心理 学 传统 实验 方法 的 局 限 性 , 近年 来 越 来 越 多 的 心理 学 研究 者 引入 人 工 智 能 领域 
的 自然 语言 处 理 (natural language processing, NLP) 技 术 ， 特 别 是 基于 人 工 神经 网 络 和 深度 学 
习 的 语言 模型 , 以 度量 实验 刺激 的 语义 及 语义 关系 ,将 NLP 模型 与 脑 成 像 实验 数据 相 结 合 ， 
正在 成 为 神经 语言 学 领域 的 重要 趋势 .近期 有 部 分 国内 外 研究 者 对 计算 语言 学 方法 在 认 知 语 
言 学 和 脑 科 学 中 的 应 用 进行 了 总 结 和 展望 ,例如 , 王 少 楠 等 (2022b) 总 结 了 新 兴 计 算 语言 学 方 
法 在 语言 信息 的 单元 和 维度 、 不 同类 型 语言 信息 的 脑 网 络 定 位 、 语言 信息 加 工 的 时 间 进 程 和 
室 制 以 及 语言 信息 的 神经 编码 形式 与 计算 机 制 等 问题 上 的 应 用 ,文章 所 探讨 的 语言 信息 包 护 
了 语音 、 语 义 、 句 法 结构 等 多 方面 内 容 。 在 另 一 篇 文章 中 ( 王 少 楠 等 ,2022a)， 作 者 从 宏观 角 
度 系统 地 讨论 了 认 知 语言 学 与 计算 语言 学 各 自 的 研究 问题 、 研 究 方法 和 局 限 性 ,并 就 这 两 大 
领域 如 何 融合 提出 了 深刻 见解 .还 有 研究 者 将 现代 分 布 式 语义 计算 模型 与 认 知 心理 学 中 的 两 


4 


上 


oe 


> 类 传统 语义 模型 (基于 特征 的 语义 模型 和 基于 联结 网 络 的 语义 模型 ) 在 知识 表征 、 学 习 机 制 和 
LO 

LO AEBREN ET TIRARE, RD T MARE X ATRN 5 RKE eA BY BHR EE 
= (Kumar, 2021). 


上 述 研究 在 宏观 角度 概括 了 计算 语言 学 方法 在 语言 认 知 中 的 广泛 应 用 , 但 未 就 具体 问题 
进行 系统 总 结 和 详细 论述 。 本 综述 拟 聚 焦 语 言 认 知 和 脑 科学 领域 的 核心 问题 之 一 一 人 脑 对 语 
义 信息 的 表征 ， 对 NLP 模型 在 该 问题 上 的 应 用 进行 总 结 与 展望 。 本 综述 将 首先 介绍 NLP 模 
型 表征 语义 的 原理 与 技术 , 并 介绍 语言 模型 与 脑 成 像 数 据 进行 结合 的 两 类 方法 ; 在 此 基础 上 ， 
系统 阐述 NLP 技术 在 人 脑 语 义 表 征 研究 中 的 应 用 , 包括 单词 语义 、 句子 (及 语 境 ) 语 义 和 篇 章 
语义 ， 并 与 传统 心理 学 方法 度量 语义 的 局 限 之 处 进行 对 比 : 最 后 ， 探 讨 应 用 NLP 语言 模型 
FT TRIE Abit SC ASAE HEE BES ARARKEN H 
2 NLP 语义 表示 的 算法 原理 及 进展 

如 何 让 计算 机 从 文本 中 自动 捕获 语义 是 计算 语言 学 领域 的 核心 问题 之 一 。 早 期 研究 者 提 
出 了 基于 逻辑 规则 的 方法 对 自然 语言 进行 建 模 (Chomsky, 1957; Hobbs, 1977)， 希 望 计算 机 像 
人 一 样 根据 句法 、 词 语 顺 序 和 搭配 等 规则 理解 词语 的 含义 。 尽 管 该 方法 的 精度 较 高 , 但 它 高 
度 依赖 人 工 编制 的 语言 学 文法 ， 不 适合 处 理 大 规模 真实 文本 (尤其 是 在 词语 新 用 法 、 新 含义 
越 来 越 多 的 互联 网 时 代 )， 且 不 同 语言 之 间 的 规则 不 尽 相 同 。 后 来 ， 由 于 规则 表示 存在 许多 
问题 ， 统 计 学 派 基 于 “上 下 文 相 似 的 词语 ， 其 语义 也 相似 ”的 分 布 式 语义 假设 (Harris, 1954), 
提出 了 语义 的 向 量 空间 模型 (Salton et al., 1975)， 它 成 为 了 NLP 领域 近 十 余年 来 的 主流 指导 


思想 , 即 分 布 式 表示 (distributed representation)。 这 一 思想 是 把 词语 这 一 离散 符号 (局 部 表示 ， 


local representation) 映 射 到 一 个 稠密 的 向 量 空间 中 ， 从 而 使 用 一 个 相对 低 维 的 向 量 (例如 300 
维 ) 代 蔡 稀 疏 且 高 达 几 十 万 维 的 独 热 向 量 (Bengio et al., 2003), 例 如 关于 颜色 的 局 部 表示 为 “ 红 、 
BE. BE. IR, PZT +++” ({1,0,0,0,0], [0,1,0,0,0], [0,0,1,0,0], [0,0,0,1,0], [0,0,0,0,1])， 而 用 分 
布 式 表 示 则 可 将 所 有 颜色 统一 到 RGB 三 维 向 量 上 (例如 灰色 可 表示 为 [125, 125, 125]), KK 
减少 了 向 量 维度 。 在 分 布 式 表 示 中 ,语义 信息 隐 含 在 词 向 量 的 各 个 维度 上 ， 词 语 间 的 语义 关 
系 主要 由 它们 在 空间 中 的 位 置 关系 反映 : 两 个 词 向 量 越 接 近 ， 语 义 相似 性 越 高 。 

在 语义 空间 的 构建 与 词 向 量 的 获得 方面 , 当前 主要 有 两 类 思路 。 一 类 是 基于 统计 的 语义 
表示 方法 ， 该 方法 主要 基于 语料库 对 “ 词 - 词 ”或 “ 词 -文档 ”等 的 共 现 关系 进行 统计 ， 算 法 


包括 潜 语 义 分 析 (latent semantic analysis, LSA, Deerwester et al., 1990; Dumais, 2004). JEFE 


a 


阵 分 解 (non-negative matrix factorization, Lee & Seung, 1999)、 基 于 马尔 可 夫 假 设 的 N-gram 


(Brown et al., 1992) 等 。 以 LSA 为 例 ， 该 方法 通过 统计 文本 语 料 建立 “ 词 -文档 ” 共 现 窍 阵 
Le) 4wxa( 其 中 mw 是 词 数 ,qd 是 文档 数 )， 然 后 对 共 现 矩阵 进行 奇异 值 分 解 4wxa = Uwxr2rxrxa 构 


建 潜 语 义 空 间 并 实现 降 维 (公式 中 r 即 为 潜 语 义 空 间 维 数 ), 矩阵 U 中 每 一 行为 词语 的 潜 语 义 表 
示 ( 即 词 向 量 )， 和 矩阵 V7 中 的 每 一 列 为 文档 的 潜 语 义 表示 ， 秆 阵 中 的 奇异 值 反 映 了 每 一 潜 语 
义 的 重要 程度 。 如 此 一 来 ， 词 和 文档 都 的 信息 得 到 浓缩 ， 映 射 到 了 统一 的 潜 语 义 空间 中 ， 既 
可 以 用 于 词语 的 语义 表示 , 也 可 以 用 于 表示 篇 章 和 文档 的 语义 。 基 于 统计 的 语义 表示 方法 能 
有 效 聚 类 语义 相近 的 词 或 文档 ， 在 语义 相似 性 分 析 、 词 (或 文档 ) 聚 类 、 信 息 提取 等 任务 上 取 
得 了 良好 的 成 绩 (Jelodar etal., 2019; Xu et al., 2008) 。 但 该 方法 也 具有 明显 的 局 限 性 ， 例 如 词 
(或 文档 ) 向 量 的 分 布 不 一 定 符合 概率 模型 假设 所 要 求 的 正 态 分 布 ; 矩阵 分 解 的 计算 复杂 度 高 ， 
rr 并 且 当 加 入 新 的 文档 时 , 需 重新 训练 来 更 新 模型 ; 未 能 充分 考虑 句子 中 词语 的 先后 顺序 信息 ; 
不 能 解决 一 词 多 义 现象 等 。 

与 基于 统计 的 方法 不 同 ， 另 一 类 基于 预测 的 语义 建 模 方法 使 用 神经 网 络 学 习 语义 表示 ， 


通过 计算 预测 值 与 真实 值 的 差异 来 调整 模型 参数 (关于 语义 建 模 方法 的 其 他 分 类 标准 ， 请 参 


阅 Kumar, 2021)。 人 工 神经 网 络 (artificial neural network，ANN， 下 文 简称 神经 网 络 ) 是 通过 
模拟 人 脑 神经 系统 对 复杂 信息 处 理 机 制 而 构建 的 一 种 数学 模型 Mcculloch & Pitts, 1943)。 神 
经 网 络 由 神经 元 (节点 ) 互 相连 接 ( 边 ) 而 构成 , 按 先 后 顺序 主要 分 为 输入 层 、 隐 藏 层 和 输出 层 。 
输入 层 主 要 进行 信号 接收 与 激活 (例如 提取 词语 对 应 的 词 向 量 ， 类 比 于 外 界 刺激 引起 初级 感 
觉 区 的 电 生 理 活动 ); 隐藏 层 是 神经 网 络 的 核心 ， 主 要 进行 信号 的 加 工 、 整 合 和 抽象 化 等 复 
杂 过 程 (类 比 于 大 脑 中 间 神 经 元 、 联 合 皮 层 和 高 级 决策 皮层 等 ); 输出 层 在 接收 隐藏 层 加 工 后 
的 信号 后 ， 根 据 任务 需求 进行 最 后 一 步 的 反应 输出 (例如 对 词语 进行 情绪 分 类 等 ， 类 比 于 大 


脑 发 音 皮 层 、 运 动 皮 层 )。 与 大 脑 神 经 元 动作 电位 的 特性 相似 ， 人 工 神 经 网 络 隐藏 层 中 的 神 
经 元 接收 上 游 多 个 神经 元 信号 后 (类 比 大 脑 神 经 元 树 突 )， 按 照 不 同 的 权重 进行 加 权 求 和 (类 
比 胞 体 )， 随 后 根据 汇总 后 的 信号 是 否 高 于 激活 阀 限 来 决定 是 否 向 下 游 传 出 信号 以 及 信号 的 
强度 (一 般 经 过 sigmoid、ReLU 等 非 线性 激活 函数 完成 )， 后 续 隐 藏 层 的 工作 过 程 以 此 类 推 。 
值得 注意 的 是 , 隐藏 层 中 每 个 神经 元 与 上 游 各 个 神经 元 之 间 的 信息 权重 是 不 同 的 , 这 些 参 数 
神经 网 络 输 出 值 与 真实 值 的 误差 通过 反 向 传播 算法 不 断 调整 ,通过 多 次 训练 不 断 缩小 预测 
值 与 真实 值 的 差距 , 神经 网 络 建立 起 原始 输入 信号 与 目标 输出 间 的 映射 关系 , 最 终 的 学 习 结 
果 体 现在 各 个 神经 元 的 参数 上 。 

在 词语 的 向 量 表示 问题 上 , 神经 网 络 通常 使 用 大 规模 语 料 来 训练 网 络 权 重 , 输入 句子 材 


料 以 学 习 词语 和 上 下 文 语 境 的 关系 。 以 经 典 的 Word2Vec 中 的 连续 词 袋 (continuous bag-of- 
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word，CBOW) 模 型 为 例 (Mikolovetal,2013a)， 该 模型 基于 分 布 式 假设 而 设计 (上 下 文 相似 的 
词语 意思 也 相似 )， 给 定 前 后 共 k 个 上 下 文 语 境 词 ， 预 测 中 间 的 目标 词 。 输 入 层 为 词 的 独 热 编 
码 向 量 , 通过 输入 层 与 隐藏 层 的 权重 和 矩阵 提取 词语 的 词 向 量 , 随后 将 该 向 量 与 隐藏 层 输出 层 
之 间 的 权重 矩阵 进行 点 乘 并 使 用 softmax 函数 进行 归 一 化 ， 得 到 词 表 中 各 个 词 出 现 的 概率 ， 
选取 概率 最 高 的 词语 作为 预测 结果 ( 见 图 1)。 通 过 计算 预测 词 与 真实 词 的 词 向 量 差异 并 由 反 
向 传播 进行 参数 调整 , 输入 层 和 隐藏 层 之 间 的 权重 ( 即 词 向 量 ) 得 以 不 断 更 新 。 此 外 , Word2Vec 
也 可 以 使 用 跳 字 模型 (skip-gram) 进 行 训练 ， 即 给 出 一 个 目标 词 ， 预测 其 上 下 文 (向 前 、 同 后 共 
kk 个 词 )。Word2Vec 模型 获得 的 词 向 量 与 分 布 式 假设 吻合 较 好 ， 对 词 向 量 进行 聚 类 的 结果 合 
理 ， 且 能 较 好 地 反映 语义 相似 度 (Mikolov et al., 2013a; Mikolov et al., 2013b)。 例 如 ， 计 算 向 
EVO = Y( 国 王 ) -VY( 男 人 ) +V( 女 人 )， 得 到 的 V(t) 会 与 V (女王) 等 相关 词语 的 词 向 量 余 
弦 相 似 度 最 高 。 

Word2Vec 模型 提出 以 后 ， NLP 领域 掀起 了 词 向 量 计算 与 优化 表示 的 热潮 ,后 续 研 究 者 
设计 了 一 系列 架构 更 复杂 的 神经 网 络 语言 模型 , 它们 在 计算 词 向 量 时 考虑 了 上 下 文 语 境 的 信 
息 , 更 符合 人 脑 整 合 语 境 的 认 知 模式 。 新 开发 的 神经 网 络 模型 还 可 以 对 句子 和 篇 章 语义 进行 
建 模 ， 代 表 性 模型 包括 : 可 捕获 句子 的 结构 信息 的 递归 神经 网 络 (recursive neural network, 


RecNN, Socher et al., 2013); 循环 神经 网 络 (recurrent neural network, RNN, Elman, 1990; 


Mikolov et al., 2010) 及 其 优化 版 本 长 短 时 记忆 网 络 (long short-term memory, LSTM, Hochreiter 


& Schmidhuber, 1997; Sundermeyer etal., 2012), 把 句子 看 作 一 个 有 顺序 的 时 间 序 列 , 将 上 (下 ) 


文 信息 整合 到 当前 词语 的 向 量 表示 中 (Graves et al., 2013); 卷 积 神经 网 络 (convolutional neural 


network)， 提 取 多 层次 的 语义 信息 并 具备 更 高 效 的 并 行 运 算 能 力 (Yin et al., 2017; Zhang & 
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41: CBOW 训练 示意 图 。 对 于 要 要 预测 的 目标 词 Wi， 选 取向 前 、 向 后 共 k 个 上 下 文 词语 作为 语 境 ( 一 般 情况 下 上 下 文 窗 
长 度 相 等 )， 经 过 输入 层 和 隐藏 层 的 权重 矩阵 提取 它们 的 词 向 量 进行 求 和 ， 随 后 将 新 生成 的 词 向 量 与 隐藏 层 -输出 层 的 权重 矩 
阵 进行 点 乘 ， 再 经 过 softmax 计算 得 到 词 表 ( 大 小 为 N) 中 各 个 词 出 现 的 概率 ， 选 取 概 率 最 大 的 词语 作为 预测 结果 。skip-gram 
模型 略 有 不 同 ， 输 入 目标 词 Wt:， 预 测 其 上 下 文 。 


Wallace, 2017)。 除 了 词语 ， 基 于 神经 网 络 的 算法 也 可 以 对 段落 或 篇 章 的 语义 进行 表示 ， 例 如 
Doc2Vec 在 Word2Vec 模型 的 基础 上 加 入 一 个 段 内 共享 、 段 间 独 立 的 段落 向 量 进行 训练 ， 从 
而 获得 段落 的 向 量化 语义 表示 (Quoc & Mikolov, 2014)。 其 他 思路 还 有 层次 化 特征 提取 等 ， 例 
如 首先 计算 段落 内 每 句 话 的 语义 表示 得 到 名 向 量 ， 再 以 句 向 量 为 单位 输入 模型 得 到 段落 向 
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后 来 谷歌 公司 提出 了 Transformer 架构 (Vaswani etal., 2017), 解决 了 RNN 及 其 变 体 的 长 
距离 依赖 和 串 行 训练 低 效 等 局 限 ， 成 为 了 近年 来 NLP 新 模型 的 主流 网 络 骨干 。Transformer 
架构 由 编码 器 和 解码 器 组 成 ， 每 个 编码 器 和 人 解码 器 中 包含 了 自 注意 力 层 (multi-head self- 
attention) 和 全 连接 层 , 其 中 自 注意 力 层 通 过 对 目标 词 与 上 下 文 词语 的 相似 性 进行 计算 与 加 权 
求 和 来 整合 语 境 信息 ， 随 后 经 过 全 连接 层 提取 信息 的 特征 。Transformer 架构 中 的 自 注意 力 


机 制 代替 了 RNN 结构 中 的 串 行 记 忆 单 元 ， 使 得 计算 可 以 高 速 并 行 化 ， 并 且 Transformer 42 
构 通 过 多 个 编码 器 和 解码 器 的 堆 闭 提升 了 对 文本 特征 的 提取 与 抽象 效果 。 基 于 Transformer 


架构 的 代表 性 语言 模型 包括 BERT (Bidirectional Encoder Representation from Transformers, 


X 


Devlin et al., 2018) GPT(Generative Pre-trained Transformer, Brown et al., 2020; Radford et al., 
2019) 等 ， 它 们 在 许多 自然 语言 处 理 任务 上 的 表现 都 取得 了 较 大 的 提升 。 基 于 深度 神经 网 络 
的 语义 建 模 方法 的 参数 庞大 (例如 BERT-large 模型 中 有 3 亿 参 数 需要 训练 ，GPT-3 的 参数 量 
则 高 达 1750 亿 )， 对 语 料 数 据 量 、 计 算 机 性 能 等 要 求 较 高 。 因 此 预 训练 成 为 了 目前 大 规模 语 
言 模型 的 主流 使 用 方式 ， 将 模型 在 某 个 语言 任务 上 进行 大 量 训练 (例如 完 形 填空 ) 以 得 到 模型 
BR, 各 组 研究 者 以 这 一 套 模型 参数 为 基础 开展 下 游 任 务 。 预 训练 模型 降低 了 研究 团队 训练 
费 型 的 技术 与 时 间 成 本 ， 并 提升 了 语言 认 知 研究 的 可 比 性 与 可 重复 性 。 

相 较 于 传统 基于 统计 的 语义 表示 方法 , 神经 网 络 模 型 能 捕获 更 丰富 的 文本 特征 , 通用 性 
更 强 ， 在 完 形 填空 、 情 感 分 析 、 构 建文 摘 、 翻 译 等 多 种 复杂 语言 任务 中 具有 更 优秀 的 表现 
(Sutskever et al., 2014; Wu & Dredze, 2019)。 此 外 ， 大 规模 预 训练 模型 (例如 BERT) 将 学 习 到 
的 多 种 语言 信息 都 萤 藏 在 其 参数 中 , 研究 者 可 根据 自身 需要 对 预 训练 模型 进行 微调 , 从 而 以 
较 低 的 资源 消耗 获得 针对 专门 任务 的 更 优 模型 表现 。 随 着 计算 机 算 力 的 不 断 提升 ,以 上 优势 
与 表现 使 得 神经 网 络 模型 逐步 取代 传统 基于 统计 的 文本 表示 方法 ， 成 为 NLP 领域 的 核心 技 
术 之 一 。 关 于 NLP 中 的 文本 表示 方法 更 详细 的 介绍 请 参阅 赵 京 胜 等 (2022)。 

3 NLP 语言 模型 在 人 脑 语义 表征 研究 中 的 应 用 
3.1 NLP 语言 模型 与 脑 成 像 数 据 的 结合 方法 

NLP 语言 模型 提供 了 客观 度量 与 计算 文本 语义 的 有 效 工具 。 利用 该 工具 , 神经 语言 学 研 
究 者 可 以 进一步 分 析 语 义 信息 在 多 大 程度 上 解释 了 脑 活动 模式 的 变化 , 从 而 推论 出 哪些 脑 区 
参与 了 语义 信息 的 表征 与 加 工 。 值 得 注意 的 是 ，NLP 语言 模型 得 出 的 词 向 量 与 脑 活动 数据 
来 自 不 同 的 模型 与 模 态 ， 各 自 数据 的 维度 和 数值 代表 的 含义 截然 不 同 。 例 如 ，BERT 输出 层 
的 向 量 为 768 维 (BERT-base) 或 1024 维 (BERT-large), 每 一 维 的 数值 含义 不 明确 。 脑 活 动 的 数 
据 维 度 则 根据 选取 的 脑 区 大 小 而 有 所 不 同 ， 从 一 维 (voxel 水 平 )， 几 百 (ROI 水 平 )， 几 千 ( 网 络 
KP, 到 几 万 (全 脑 水 平 ) 不 等 。 如 何 对 这 两 类 维度 不 同 的 多 变量 数据 进行 有 效 建 模 是 一 个 上 县 
有 挑战 性 的 问题 ， 当 前 有 两 种 常用 的 方法 : 表征 相似 性 分 析 (representation similarity analysis, 
RSA) 与 线性 回归 。 

RSA 通过 分 析 语 义 相似 性 矩阵 和 脑 活 动 相似 性 矩阵 的 共享 结构 ， 建 立 起 两 类 数据 的 关 
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图 2: 表征 相似 性 计算 示意 图 。 中 间 上 部 表示 大 脑 加工 不 同 刺 激 时 的 脑 活动 ; 中 间 下 部 表示 用 于 对 比 的 模型 对 每 个 刺激 的 向 


量 表示 。 此 处 的 


向 量 既 可 以 是 NLP 模型 的 词 向 量 ， 也 可 以 是 被 试 在 某 些 维度 上 的 评分 等 多 种 特征 。 右 列 是 表征 不 相似 性 矩 


阵 (RDM)， 通 过 计算 脑 活动 或 模型 向 量 在 刺激 间 的 两 两 不 相似 性 得 到 。 计 算 两 个 RDM 上 三 角 的 Spearman 相关 系数 ， 即 为 


大 脑 与 模型 的 表 


征 相似 性 。 


HXk(Kriegeskorte et al., 2008)。 进 行 RSA 分 析 时 ， 首 先 需要 分 别提 取 人 脑 和 NLP 语言 模型 对 


于 各 个 刺激 (例如 单词 ) 的 表征 ， 其 中 脑 表 征 可 由 给 定单 词 引发 的 一 组 体 素 的 活动 强度 数据 表 


示 ，NLP 模型 表征 可 由 Word2Vec( 或 其 他 模型 ) 对 该 单词 的 词 向 量 表 示 。 随 后 分 别 计算 人 脑 
和 语言 模型 内 部 对 于 不 同 刺激 的 表征 相似 性 程度 (可 用 相关 系数 、 欧 式 距 离 或 马 氏 距 离 等 不 


同 指标 度量 )， 


同一 个 模型 对 于 不 同 刺激 的 表征 的 差异 ， 通 过 计算 两 个 RDM 之 间 的 Spearman 相似 性 ， 得 


从 而 构建 表征 差异 和 矩阵 (representation dissimilarity matrix, RDM). RDM 反映 了 


到 的 相关 系数 反映 人 脑 和 语言 模型 对 于 同一 组 刺激 的 内 部 表征 相似 程度 ( 见 图 2)。 
线性 回归 是 男 一 种 关联 不 同类 型 高 维 数据 的 方法 , 它 的 基本 思想 是 寻找 一 组 参数 去 拟 合 
两 组 数据 之 间 的 关系 ， 从 而 基于 刺激 特征 或 模型 输出 向 量 “ 预 测 ” 大 脑 反应 (编码 )， 或 基于 脑 


活动 模式 “预测 ”被 试 当前 正在 加 工 的 内 容 (解码 )。 在 多 种 线性 回归 方法 中 ， 岭 回归 是 最 常用 


的 一 种 , 它 可 以 解决 过 拟 合 与 多 重 共 线 性 等 问题 ,最 近 有 不 少 研究 发 现 , 对 于 同一 语言 信息 ， 
NLP 模型 向 量 可 以 通过 岭 回 归 与 脑 活 动 建立 映射 关系 ( 王 少 楠 等 , 2022b; Anderson et al., 


2021; Caucheteux & King, 2022; Dupre la Tour et al., 2022; Goldstein et al., 2022; Jain & Huth, 


2018; Prince et al., 2022; Schrimpfetal., 2021)， 若 模型 和 人 脑 存在 相同 或 相似 的 表征 信息 ， 岭 


回归 预测 值 与 真实 值 之 间 将 会 具有 显著 相关 性 。 
RSA 和 岭 回 归 都 可 以 比较 不 同 模型 与 脑 表征 的 关系 ， 但 它们 在 原理 和 功能 上 有 所 差异 
(Bruffaerts et al., 2019)。RSA 度量 的 是 NLP 模型 反应 模式 与 大 脑 中 一 组 体 素 (或 脑 区 ) 反 应 模 


式 间 的 相似 性 程度 ， 而 岭 回 归 骨 在 建立 特征 (或 模型 向 量 ) 与 单个 体 素 (或 脑 区 ) 活 动 之 间 的 回 
归 关 系 。RSA 方法 不 需要 对 参数 进行 拟 合 ,因此 计算 量 小 、 对 数据 量 要 求 相 对 较 低 。 但 该 方 
法 将 所 有 特征 作为 一 个 整体 , 无 法 估计 单一 特征 对 脑 活 动 的 贡献 程度 。 岭 回归 方法 能 获取 单 
一 特征 对 脑 活动 的 权重 值 , 进而 可 根据 新 刺激 的 特征 预测 其 激活 模式 , 在 使 用 连续 自然 刺激 
的 任务 中 较为 常见 。 但 该 方法 需要 估计 的 自由 参数 较 多 , 并 且 往 往 需 要 对 惩罚 系数 进行 网 格 
搜索 ， 因 此 计算 量 较 大 并 且 对 数据 量 的 要 求 较 高 。 针 对 RSA 和 岭 回归 方法 各 自 的 优 缺 点 ， 
Anderson etal. (2016) 提 出 了 表征 相似 性 编码 方法 。 该 方法 基于 “相似 的 刺激 会 引发 相似 的 脑 
活动 ”这 一 思想 , 首先 计算 待 预 测 目标 与 所 有 已 知 目标 的 特征 相似 性 ， 随 后 将 相似 性 指标 作 
为 权重 对 已 知 目标 诱发 的 脑 活 动 值 进行 加 权 平 均 ， 从 而 得 到 预测 目标 的 脑 活 动 值 。 该 方法 利 
用 刺激 间 的 相似 性 信息 进行 预测 , 避免 了 对 模型 的 参数 估计 , 计算 快捷 且 回 归 模 型 中 的 参数 
(相似 性 ) 具 有 较 强 的 可 解释 性 , 具有 较 大 的 应 用 价值 (Anderson etal., 2021; Wang et al., 2020)。 
值得 注意 的 是 ， 对 于 RSA 或 岭 回归 中 预测 值 与 真实 值 的 相关 系数 的 解读 需要 谨慎 ， 显 著 的 
相关 系数 只 能 说 明 模型 与 大 脑 的 表征 信息 存在 相似 之 处 , 并 不 能 直接 推断 三 者 背后 的 工作 机 
制 是 相同 的 ， 尤 其 是 相关 系数 较 低 的 情况 下 (Kriegeskorte & Douglas, 2018, 2019). 
3.2 典型 应 用 
3.2.1 词 水 平 语义 的 表征 

语言 作为 思想 的 载体 , 其 中 蕴含 的 有 意义 信息 由 哪些 脑 区 加 工 、 如 何 加 工 一 直 是 认 知 神 
经 科学 关注 的 问题 ,早期 语义 表征 的 研究 主要 通过 比较 被 试 接受 不 同 刺激 或 进行 不 同 任务 时 
的 大 脑 激 活 差异 , 探究 词语 或 概念 在 哪些 脑 区 进行 加 工 , 例如 真 假 词 (Pulvermiiller et al., 2001)、 


词语 类 别 (Gonzalez et al., 2006; Pulvermiiller et al., 2009)、 词 性 (Pulvermiiller et al., 1999; 
Warburton et al., 1996)、 语 义 任务 和 语音 任务 (Poldrack et al., 1999) 的 对 比 等 。 条 件 对 比 范式 
与 激活 分 析 取 得 了 不 少 重要 发 现 ， 但 对 语义 信息 的 刻画 主要 停留 在 粗 颗 粒度 层面 且 难 以 量 
化 。NLP 技术 使 得 研究 者 能 从 定量 角度 对 材料 的 语义 信息 进行 度量 ， 探 究 语义 信息 与 大 脑 
表征 之 间 的 关联 。 

在 早期 的 工作 中 ，Mitchell et al. (2008) 选 取 名 词 刺激 作为 材料 ， 使 用 它们 与 25 个 代表 性 
动词 的 共 现 频率 作为 语义 向 量 表示 , 通过 线性 回归 对 大 脑 加 工 名 词 时 的 活动 进行 预测 。 结 

发 现 双 侧 枕 叶 、 顶 叶 、 额 中 回 等 区 域 都 能 够 区 分 词语 , 说 明 大 脑 对 实体 名 词 的 表征 一 定 程度 
上 基于 感觉 运动 特征 ， 其 中 枕 叶 的 效应 可 能 是 因为 被 试 对 名 词 的 相关 动作 场景 产生 了 联想 。 
该 研究 开创 了 NLP 与 脑 成 像 技 术 相 结合 的 先河 ， 为 语义 脑 表征 研究 提供 了 条 件 对 比 范式 以 
外 的 新 思路 .近期 研究 者 开始 将 NLP 方法 应 用 到 对 自然 连续 语言 材料 (例如 故事 或 电影 音频 ) 


= 


的 语义 分 析 中 (Huth et al., 2016; Wehbe et al., 2014)， 相 比 于 传统 的 实验 室 方 法 (人 为 编制 或 挑 
选 少量 特定 的 语言 刺激 )， 这 些 自然 连续 材料 包含 的 词汇 量 更 大 、 类 型 更 丰富 ， 因 此 得 出 的 
结果 可 能 更 能 反映 真实 的 人 脑 语义 表征 。 例 如 在 Huth et al. (2016) 的 研究 中 ， 被 试 收 听 了 长 
达 2 个 小 时 的 故事 并 同步 进行 fMRI 扫描 。 研 究 者 首先 标记 每 个 TR (repetition time) 内 出 现 
的 刺激 ， 提 取 这 些 刺 激 对 应 的 词语 共 现 向 量 作为 该 TR 的 语义 表示 ， 随 后 构建 岭 回 归 预 测 模 
型 , 使 用 语义 表示 向 量 预 测 大 脑 每 个 体 素 的 活动 。 若 某 个 体 素 的 预测 相关 性 经 过 多 重 比较 校 
正 后 依然 显著 ,说 明 它 的 活动 蕴含 了 语义 信息 ， 即 参与 了 语义 表征 。 结 果 表 明 ， 语义 信息 在 
大 脑 中 的 表征 分 布 覆 盖 了 内 侧 前 额 叶 、 显 中 回 、 晒 顶 联合 区 等 多 个 脑 区 ,与 元 分 析 发 现 的 语 
义 网 络 (Binder et al., 2009) 高 度 重 登 。 这 些 研究 成 果 表 明 NLP 对 语义 的 表示 能 够 有 效 地 运用 
在 复杂 的 自然 刺激 中 ， 并 进一步 支持 了 语义 的 分 布 式 表征 观点 (Kiefer & Pulvermiiller 2012; 
Nastase et al., 2017)， 即 多 个 脑 区 共同 加 工 、 表 征 语义 ， 而 非 集中 在 某 一 局 部 区 域内 。 

此 外 , NLP 技术 对 词汇 语义 的 量化 功能 使 研究 者 能 够 从 更 精细 的 角度 考察 语义 表征 , 拓 
OO 宽 了 研究 空间 。 例 如 Kivisaari et al. (2019) 考 察 了 人 们 对 概念 的 表征 与 概念 特征 之 间 的 联系 ， 
2 在 研究 中 向 被 试 逐一 呈现 目标 概念 的 3 个 特征 词 (例如 “一 种 水 果 ”“ 被 剥 开 ”“ 猴 子 吃 它 ”)， 
被 试 需要 根据 这 些 特征 猜想 对 应 的 概念 (例如 “ 香 巷 ”)。 研 究 者 使 用 大 脑 体 素 活动 模式 对 特 
征 词 或 目标 词 的 词 向 量 进 行 解码 ， 并 比较 列 含 不 同 信息 的 词 向 量 的 解码 正确 率 。 结 果 表 明 ， 
尽管 被 试 只 看 到 了 3 个 特征 词 , 但 将 目标 概念 的 所 有 特征 (包括 没有 呈现 的 特征 ) 对 应 的 词 向 
量 相 加 后 得 到 了 最 高 的 解码 正确 率 ,显著 高 于 呈现 的 特征 词语 和 目标 概念 , 说 明 人 脑 利用 有 
限 的 信息 片段 构建 了 目标 对 象 完整 的 语义 表征 ， 并 且 激 活 了 其 他 相关 联 的 概念 特征 信息 。 
an 3.2.2 语 境 信息 的 影响 以 及 名 水平 语义 表征 

在 探究 语义 在 大 脑 中 的 表征 时 , 许多 研究 将 词语 或 目标 刺激 单独 呈现 ,希望 获得 没有 其 

他 信息 干扰 下 的 语义 表征 。 然 而 语义 表征 是 动态 的 (Yee & Thompson-Schil 2016)， 同 一 词语 

在 不 同 的 语 境 中 表达 的 意思 和 产生 的 心理 感受 会 有 所 不 同 。 例如 人 们 看 到 “女排 "一 词 的 心理 

表征 与 “中 国 女排 "会 有 所 不 同 ， 后 者 的 “女排 "在 “中 国 * 语 境 下 可 能 会 激活 自豪 感 、 具 体 的 人 


物 形象 等 额外 信息 。 已 有 研究 表明 ， 颗 叶 前 部 、 额 顶 网 络 等 脑 区 会 整合 并 更 新 当前 的 语义 信 


息 (Bonnici et al., 2016; Branzi et al., 2020; Humphreys et al., 2021; Lambon Ralph et al., 2017), 
进一步 说 明了 语义 表征 的 动态 性 。 语 境 独立 的 实验 设计 或 静态 词 向 量 并 不 能 充分 地 刻画 丰富 
语 境 下 的 语义 表征 ， 尤 其 是 面临 一 词 多 义 现象 时 。 


NLP 技术 提供 了 能 够 整合 语 境 的 多 种 深度 语言 模型 ， 例 如 ELMo (Peters et al., 2018)、 


InferSent (Conneau et al., 2017)、BERT 等 ， 对 于 同一 个 词 ， 模 型 输出 的 语义 向 量 能 随 着 语 境 


的 不 同 而 变化 。 利 用 该 特点 ， 有 研究 者 比较 了 孤立 词 和 整合 语 境 信息 后 的 词 在 人 脑 中 的 表征 
(Gao etal.,2022)。 在 实验 中 ， 每 个 试 次 包含 两 个 先后 呈现 的 英语 单词 ， 被 试 需要 判断 它们 是 
否 存在 语义 关联 。 研 究 者 首先 采用 Word2Vec 模型 提取 语义 向 量 ， 该 模型 对 词 的 语义 表示 是 
相对 固定 的 ， 不 受 情境 词 的 影响 ， 因 此 被 认为 反映 了 词 的 孤立 语义 。 同 时 ， 对 于 同一 单词 ， 
研究 者 还 采用 了 ELMo 模型 提取 其 语义 向 量 ， 该 模型 采用 双向 循环 神经 网 络 结构 ， 输 出 的 
词 向 量 充分 整合 了 语 境 信息 ( 即 前 一 个 词 )。 通 过 使 用 RSA 比较 人 脑 和 语言 模型 对 于 同一 组 
刺激 的 内 部 表征 相似 程度 , 研究 者 发 现 孤 立 语义 的 表征 主要 由 缘 上 回 负责 , 而 语 境 依赖 的 语 
义 表 征 则 主要 与 左 侧 前 额 叶 、 角 回 和 腹 侧 显 叶 有 关 。 
通过 运用 自 注意 力 机 制 整合 上 下 文 语 境 信息 ，NLP 技术 还 提供 了 表征 句 水 平 语义 的 指 
标 (例如 InferSent 模型 的 输出 向 量 或 BERT 模型 输出 的 CLS 向 量 )。 名 水平 的 向 量 表示 不 仅 
考虑 了 单个 词 的 语义 信息 ,还 考虑 了 词 与 词 之 间 的 组 合 关系 。 在 近期 一 项 研究 中 , 被 试 观看 
一 系列 由 4~9 个 单词 构成 的 句子 , 同时 进行 fMRI 扫描 。 研究 者 首先 使 用 InferSent 模型 提取 
句子 的 语义 表征 , 然后 通过 岭 回归 建立 句子 语义 特征 与 脑 活 动 模式 间 的 预测 关系 ,结果 发 现 ， 
表征 句 义 的 相关 脑 区 分 布 在 包括 额 下 回 、 额 中 回 、 显 上 回 、 显 中 回 、 枕 中 回 在 内 的 广泛 区 域 
(Anderson etal., 2021)。 在 男 一 项 研究 中 ， 被 试 观看 电影 的 同时 进行 fMRI 扫描 。 研究 者 将 电 
影 切 割 成 多 个 片段 , 并 对 每 一 片段 进行 文字 注释 (每 条 注释 大 约 包含 15 个 词 ), 然后 采用 NLP 
模型 将 注释 转换 成 语义 向 量 作 为 电影 片段 的 语义 特征 , 最 后 基于 脑 活动 数据 预测 各 个 片段 的 
文本 注释 语义 特征 。 研 究 表 明 ， 默认 网 络 、 语 言 网 络 、 枕 叶 的 脑 活动 模式 能 较为 准确 地 预测 
片段 语义 特征 并 区 分 不 同 的 片段 (Vodrahalli et al., 2018)。 与 上 述 研究 结果 一 致 ，Acunzo 等 
二 人 (2022) 首先 训练 一 个 对 话题 进行 分 类 的 卷 积 神经 网 络 以 使 模型 向 量 更 好 地 捕获 话题 信息 ， 
随后 提取 该 模型 的 输出 层 向 量 作为 句子 的 话题 向 量 表示 。 将 话题 向 量 与 大 脑 活 动 进行 表征 相 
似 性 分 析 发 现 ， 里 叶 前 部 、 默 认 网 络 等 参与 了 话题 水 平 信息 的 表征 ,支持 了 默认 网 络 具有 抽 
象 、 整 合 长 时 程 信息 等 意义 建构 功能 的 观点 (Smallwood et al., 2021; Yeshurun et al., 2021). 
3.2.3 分 离 句 法 和 语义 
信息 能 够 顺利 传达 , 不 仅 依赖 词语 本 身 的 语义 信息 和 语 境 提供 的 背景 信息 , 还 需要 
词语 之 间 有 恰当 的 组 织 结构 ， 即 句法 。 经 典 的 句法 研究 范式 主要 采用 对 比 的 思路 试图 分 离 句 


法 加 工 成 分 ， 例 如 将 名 词 、 形 容 词 等 内 容 词 蔡 换 成 假 词 的 jabberwocky 句 式 (Fedorenko etal., 
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2012; Matchin etal., 2019)、 句 法 违背 (Batterink & Neville, 2013; Petersson et al.,2012)、 人 句法 适 


应 (Segaert et al., 2012) 以 及 短语 组 合 (Law & Pylkkanen, 2021) 等 。 然 而 传统 的 句法 加 工 研究 方 


法 存在 着 一 些 局 限 , 例如 不 同 任务 得 到 的 句法 加 工 脑 区 分 布 有 不 少 差异 , 并 且 由 于 语义 和 句 


法 总 是 相伴 出 现 ， 改 变 句 法 而 不 使 语义 发 生变 化 有 一 定 的 难度 (Pylkkanen, 2019)， 因 此 句法 
错乱 的 句子 很 大 程度 上 破坏 了 语义 信息 ， 使 得 传统 实验 难以 分 离 精 细 的 句法 加 工 过 程 
(Kuperberg, 2007). 

自然 语言 文本 中 词语 的 顺序 结构 更 含 了 丰富 语言 信息 , 即使 没有 显 式 表示 句法 关系 ,有 具 
有 语 境 整合 能 力 的 NLP 模型 在 训练 过 程 中 也 会 习 得 句法 关系 ， 例 如 “我 “ 爱 ”、“ 你 ”会 以 
“我 爱 你 ”的 顺序 出 现 , 而 不 是 “我 你 爱 ”。 深度 语 言 模 型 (例如 BERT) 在 主 谓 一 致 性 、 反 身 代词 
回 指 等 多 种 句法 任务 上 已 经 接近 甚至 超越 人 类 表现 (Goldberg, 2019; Zhang et al., 2022)， 表 明 
其 能 够 较为 准确 地 从 文本 中 获取 句法 信息 。 采 用 实验 设计 中 “减法 ”的 思路 , 可 以 使 用 NLP 模 
型 分 别提 取 句 子 中 的 句法 和 语义 信息 , 将 句法 信息 从 向 量 中 剥离 ， 从 而 探究 加 工 句 法 信息 的 


脑 区 分 布 (Caucheteux et al., 2021a, 2021b; Wang etal.,2020)。 研 究 结果 发 现 ， 双 侧 颗 时 和 额 下 


回 都 对 句法 信息 进行 了 加 工 , 脑 区 分 布 情况 与 先前 的 实验 研究 相似 (Hagoort & Indefrey, 2014). 
最 近 有 研究 者 使 用 特征 消除 (feature elimination) 的 方式 对 句法 信息 进行 更 精细 的 分 离 (例如 词 
性 、 命 名 实体 、 词 语 依赖 、 语 义 角 色 等 )， 进 而 探究 被 试 在 倾听 故事 时 所 进行 的 多 种 句法 加 
法 对 应 的 脑 区 分 布 有 细微 的 差异 ， 但 分 布 的 
域 大 致 相同 ， 集 中 在 颗 上 回 、 颗 中 回 和 角 回 等 语义 网 络 区 域 (Binder et al., 2009)。 

NLP 模型 可 以 有 效 地 分 离 语 义 和 句 法 信息 ， 并 能 够 在 限制 较 少 的 自然 任务 中 探究 大 脑 
的 加 工 机 制 ， 这 两 大 优点 预示 着 NLP 模型 在 脑 表 征 研究 方向 上 的 潜力 (Cichy & Kaiser, 2019; 
Hamilton & Huth, 2020)。 然 而 ， 目 前 使 用 NLP 模型 探究 大 脑 句法 加 工 的 研究 数量 有 限 ， 其 
中 发 现 的 句法 加 工 脑 区 比 传统 研究 方法 覆盖 了 更 广 的 区 域 , 这 一 现象 究竟 是 对 分 布 式 句法 信 
息 加 工 机 制 的 如 实 反映 ， 还 是 源 于 NLP 模型 与 脑 成 像 数据 构建 映射 时 存在 的 误差 ， 仍 需 将 
来 研究 开展 进一步 分 析 。 
3.2.4 篇 章 主题 信息 与 篇 章 语义 结构 的 表征 

篇 章 (段落 ) 理 解 建立 在 词 和 句子 的 语义 分 析 基 础 之 上 ， 通 过 识别 篇 章 内 部 不 同 部 分 的 语 
义 结 构 关 系 、 整 合 上 下 文 信 息 ， 最 终 形成 篇 章 核心 主题 信息 (或 情境 模型 ) 的 表征 (Patel et al., 
2022)。 传 统 实验 方法 一 般 将 完整 篇 章 与 打 乱 的 材料 进行 对 比 (Hasson et al., 2008; Lerner et al., 
2011; Simony etal., 2016)， 而 散乱 的 材料 使 得 被 试 的 记忆 与 整合 难度 更 大 ， 因 此 探测 到 的 差 
异 可 能 并 非 完 全 由 特异 于 篇 章 语义 信息 的 加 工 所 驱动 ,此 外 ,该 方法 未 对 篇 章 信 息 进行 量化 ， 
难以 度量 篇 章 间 的 语义 距离 与 关系 ， 不 适用 于 不 同 篇 章 材 料 的 研究 。 

近年 来 已 有 研究 者 开始 利用 NLP 技术 对 篇 章 的 语义 进行 建 模 表示 ， 考 察 人 脑 对 连续 自 


然 语 言 刺 激 (如 故事 或 电影 ) 的 加 工 和 表征 。 近 期 一 项 研究 结合 fMRI 技术 和 LSA 方法 ,探究 


工 (Zhang etal.,2022)。 结 果 发 现 ， 尽 管 不 同名 


Ix] 


cl 


以 不 同 模 态 呈现 的 复杂 叙事 信息 在 人 脑 中 如 何 表 征 (Nguyen et al., 2019)。 实 验 中 被 试 在 接受 
fMRI 扫描 的 同时 ， 其 中 一 组 观看 无 声 影片 ， 另 一 组 收听 影片 内 容 对 应 的 语音 叙述 。 在 扫描 
结束 后 被 试用 自己 的 话 描述 故事 内 容 ， 研 究 者 通过 LSA 进行 语义 分 析 ， 发 现 不 论 观看 无 声 
影片 还 是 收听 语音 叙述 , 被 试 描述 内 容 的 语义 相似 度 越 高 , 他 们 在 默认 网 络 与 执行 控制 网 络 
上 的 神经 活动 相似 度 也 越 高 ， 这 一 研究 结果 揭示 了 默认 网 络 (defaultmode network，DMN) 跨 
模 态 表征 主题 语义 信息 的 功能 。 另 一 项 研究 考察 了 言语 产生 和 言语 理解 过 程 中 大 脑 对 主题 信 
息 的 表征 一 致 性 (Patel et al., 2022)， 在 fMRI 扫描 的 同时 ， 被 试 围绕 一 系列 主题 进行 口头 描 
述 ， 并 收听 另 一 被 试 讲述 的 其 他 主题 内 容 。 研 究 者 运用 LSA 计算 描述 内 容 两 两 之 间 的 语义 
距离 , 并 计算 言语 理解 任务 和 言语 产生 任务 的 脑 表征 差异 和 矩阵, 最 后 计算 语义 差异 矩阵 和 脑 
表征 差异 矩阵 的 相似 度 (RSA 分 析 )。 结 果 表明 ， 包 括 额 下 回 、 内 侧 前 额 叶 、 显 极 、 显 中 回 、 
角 回 和 攀 前 叶 在 内 的 双 侧 广泛 脑 区 ,其 活动 模式 与 言语 理解 和 产 出 的 语义 内 容 存在 关联 。 该 


研究 首次 对 言语 产生 过 程 的 篇 章 水 平 语义 进行 分 析 , 揭示 了 言语 产生 和 言语 理解 两 个 过 程 共 


= 享 的 负责 高 层级 篇 章 语义 信息 表征 的 网 络 。 以 上 研究 通过 对 篇 章 水 平 语义 信息 进行 分 析 ， 和 
5 

on 究 结 果 进 一 步 支 持 了 默认 网 络 在 意义 构建 中 的 作用 (Margulies et al., 2016; Smallwood et al., 
®© 2021). 


对 篇 章 材 料 还 可 以 从 网 络 拓 扑 属 性 方面 探究 语义 结构 对 大 脑 加 工 、 学 习 、 记 忆 等 的 影响 。 
在 文本 、 视 频 等 自然 刺激 当中 ,句子 和 事件 在 某 一 主题 内 是 相互 联系 的 ， 例 如 一 个 故事 通常 
围绕 着 若干 个 核心 的 主旨 名 或 情节 进行 展开 。 使 用 语义 相似 性 作为 连 边 的 权重 , 对 篇 章 构 建 
拓扑 网 络 , 可 以 反映 篇 章 的 语义 组 织 结构 等 信息 。 有 研究 者 对 电影 叙事 节奏 与 观众 评价 之 间 
的 联系 进行 探究 (Laurino Dos Santos & Berger, 2022)， 使 用 相 邻 片段 的 语义 相似 性 作为 衡量 
情节 发 展 速率 的 指标 ， 情 节 发 展 缓慢 时 相 邻 片段 的 语义 相似 度 较 高 。 研 究 结果 显示 ， 开 头 节 
奏 缓 慢 、 结 尾 情节 推进 稍 快 的 电影 得 到 了 更 高 的 评分 , 表明 故事 篇 章 的 语义 结构 会 对 人 们 的 
感受 与 投入 度 产 生 影响 。 最 近 另 一 项 脑 成 像 研究 考察 了 篇 章 语义 结构 对 记忆 效果 的 影响 (Lee 
& Chen, 2022)， 研 究 者 对 视频 片段 进行 分 割 ， 借 助 NLP 技术 提取 各 个 片段 对 应 文字 描述 的 
语义 向 量 , 并 以 片段 作为 节点 、 以 片段 间 的 语义 相似 性 作为 连 边 权重 , 构建 视频 的 语义 结构 
拓扑 网 络 。 研 究 结 果 显 示 ， 中 心 度 (centrality， 反 映 了 与 其 他 节点 的 关联 强度 ) 较 高 的 片段 产 
生 了 更 好 的 记忆 效果 ， 并且 在 情景 回忆 相关 脑 区 (默认 网 络 ) 诱 发 了 更 强 的 激活 与 更 高 的 被 试 
间 一 致 性 ， 表 明 人 脑 对 于 事件 的 加 工 与 记忆 效果 与 其 在 语义 组 织 结构 中 的 位 置 有 关 。 

以 上 研究 结果 表明 篇 章 的 语义 组 织 结构 对 人 们 的 主观 感受 .记忆 效果 与 大 脑 活 动 等 都 产 
生 了 影响 ， 但 目前 使 用 NLP 对 大 脑 语义 表征 的 研究 大 多 从 刺激 编码 角度 出 发 ， 对 连续 刺激 


中 的 语义 组 织 结构 和 语义 关系 等 关注 较 少 。 未 来 研究 可 以 从 自然 刺激 中 的 语义 结构 入 手 , 进 
一 步 探究 其 与 大 脑 加 工 、 学 习 和 记忆 效果 的 关联 , 例如 对 于 阴谋 论 和 谣言 的 识别 (Miani etal., 


2022). ALF (Cooper & Nisbet, 2016) 等 的 神经 基础 。 


3.2.5 小 结 

NLP 技术 的 使 用 让 语言 从 符号 表示 转 为 向 量 表示 , 一 定 程度 上 克服 了 词语 离散 、 难 量化 
计算 、 难 统一 表示 等 难点 ， 使 得 语义 的 计算 和 比较 成 为 可 能 。 与 此 同时 ， 表 征 相似 性 分 析 、 
线性 回归 等 多 变量 分 析 方法 为 不 同 模 态 的 数据 搭建 了 桥 粱 。 随 着 深度 语言 模型 的 发 展 NLP 
模型 已 能 够 将 上 下 文 语 境 信息 整合 进 向 量 表示 中 , 提升 了 对 语言 的 表示 精度 ， 并 使 得 实时 刻 
画 语义 在 不 同 语 境 背 景 下 的 动态 变化 成 为 可 能 。 基 于 此 ， 研 究 者 使 用 NLP 提取 的 词 向 量 作 
为 语义 表示 , 减少 了 对 于 刺激 材料 或 实验 任务 等 的 人 为 控制 需求 , 对 语义 脑 表征 的 探究 不 再 
依赖 不 同类 型 刺激 或 加 工 任务 的 对 比 。 此 外 , NLP 作为 计算 语言 模型 具有 较 高 的 灵活 性 , 输 
入 不 同类 型 的 文本 可 以 得 到 对 应 的 信息 .研究 者 可 以 通过 比较 模型 对 不 同类 型 文本 的 向 量 表 
示 ( 例 如 含 语 境 信息 的 词 向 量 和 不 含 语 境 信息 的 词 向 量 ) 与 大 脑 表征 的 匹配 程度 ， 分 析 某 一 脑 
区 表征 的 信息 类 型 或 加 工 特 点 (Cichy & Kaiser, 2019)， 例 如 人 脑 对 未 来 词语 的 预测 机 种 


= 


(Caucheteux etal., 2021b; Goldstein etal.,2022)， 先 验 信念 对 文本 理解 的 影响 (Tikochinski etal., 
2021) 等 。 通 过 将 实验 设计 的 对 象 从 大 脑 活 动 转移 到 计算 模型 上 ，NLP 技术 可 用 于 分 离 不 同 
成 分 的 信息 ， 并 有 效 降 低 了 被 试 与 实验 数量 的 要 求 。 最 后 ， 自 然 刺 激 和 低 限 制 任务 的 使 用 正 
逐渐 成 为 脑 成 像 研究 的 趋势 (Finn & Bandettini, 2021; Hamilton & Huth, 2020)， 然 而 传统 心理 
学 实验 方法 难以 追踪 不 断 输 入 的 词语 语义 、 难 以 将 先前 语 境 信 息 整合 到 当前 词语 中 。NLP 技 
二 术 提 供 了 表征 字 、 词 、 句 、 篇 章 等 多 层级 语义 信息 的 建 模 方法 ,在 自然 语言 加 工 的 脑 神经 基 
础 探究 中 发 挥 着 日 益 重 要 的 作用 。 

运用 NLP 技术 提取 刺激 的 语义 特征 并 与 脑 活动 建立 映射 关系 ， 近 期 研究 者 较为 一 致 地 
观察 到 语义 表征 有 关 的 神经 结构 广泛 分 布 在 额 叶 、 矣 叶 、 枕 叶 等 多 个 脑 区 ， 该 结果 与 基于 传 
统 心理 学 实验 方法 以 及 脑 损 伤 病人 所 揭示 的 局 部 脑 区 表征 语义 结论 并 不 完全 一 致 ,其 部 分 原 
因 可 能 在 于 , 基于 大 样本 文本 库 训练 得 到 的 语言 模型 较为 充分 地 捕获 了 语言 符号 的 多 重 语义 
信息 ， 而 传统 心理 学 实验 中 使 用 的 特定 任务 (例如 : 语义 关联 判断 ) 选 择 性 地 激活 了 语言 符号 
某 一 方面 的 语义 ， 因 而 以 往 仅 探 测 到 部 分 脑 区 的 参与 。 值 得 注意 的 是 ， 有 不 少 理论 模型 也 提 
出 语义 记忆 的 神经 表征 分 布 在 包括 感觉 运动 区 和 联合 皮层 在 内 的 广泛 脑 区 (Bi, 2021; 


Fernandino et al., 2016a; Fernandino et al., 2016b; Lambon Ralph et al., 2017) 。 例 如 ， 概 念 表征 


的 “中 心 -辐射 qub-and-spoke)” 理 论 (Patterson et al., 2007; Lambon Ralph et al., 2017) 提 出 


Fu 


> 


浴 通 道 的 语言 及 非 语言 经 验 构成 了 概念 的 核心 成 分 ( 即 hub), 3 
， 而 概念 习 得 过 程 中 出 现 的 初始 源头 信 
在 各 个 通道 特异 皮层 。 此 外 ， 双 重 编码 到 


要 由 


ABI spoke， 包 括 视觉 、 听 觉 、 情 绪 效 价 等 ) 则 分 布 


论 则 将 知识 表征 分 为 两 大 类 别 ， 基 于 感知 运动 


(sensorimotor-derived) 的 系统 与 基于 语言 符号 (language-derived) 的 系统 ， 其 中 支持 感知 运动 


编码 的 知识 表征 系统 主要 分 布 在 通道 
言 编码 的 知识 表征 系统 则 主要 分 布 在 背 


特异 上 


fi 


te 


= 


的 感觉 运动 皮层 以 及 联合 皮层 等 广泛 脑 区 ; 支持 语 


Hil sl! (dorsal anterior temporal lobe，dATL) 及 其 延 


展区 域 (包括 额 下 回 和 颗 中 回 等 经 典 语言 脑 区 )。 基 于 NLP 技术 揭示 的 广泛 语义 敏感 脑 区 说 


明 表征 语义 的 向 量 空间 有 可 能 同时 捕获 了 自然 语言 的 抽象 、 跨 通道 成 分 和 通道 特异 成 分 , 然 


而 要 建立 起 这 些 研究 发 现 与 认 知 理论 模型 之 间 的 确切 关联 还 面临 背 


深入 的 讨论 请 参阅 : Ebi 等 , 2022a; Kumar, 2021). 


4 ”总 结 与 展望 


众多 挑战 (关于 该 问题 更 


相 比 传统 心理 学 实验 方法 ， 运 用 自然 语言 处 理 (NLP) 技 术 来 刻画 语义 具有 几 大 优势 : (1) 


能 够 对 词 、 句 子 和 篇 章 等 多 个 层级 的 语义 信息 进行 客观 量化 和 计算 ,提供 了 语义 的 度量 指标 ; 


(2) 能 够 整合 上 下 文 信息 ， 根 据 语 境 调整 词 向 量 的 输 H 


上 ， 从 而 对 语 境 下 的 语义 有 更 准确 的 表 


示 ; (3)NLP 模型 输出 的 词 向 量 瑶 含 丰富 的 信息 , 通过 消融 实验 或 输入 不 同类 型 刺激 等 方式 ， 


研究 者 可 以 提取 或 去 除 某 种 信息 (例如 名 法 信 ， 


行 考察 ; (4) 词 向量 的 获取 快速 便捷 、 受 主观 因 


通过 表征 相似 性 和 线性 回归 等 方法 , 研究 


电 )， 从 而 在 不 同 的 信息 角度 对 大 脑 语义 表征 进 
素 干扰 较 少 , 能 大 大 降低 材料 评定 所 需 成 本 。 


者 尝试 利用 基于 语言 模型 提取 的 语义 信息 来 解释 脑 


活动 的 变化 , 在 揭示 语义 的 分 布 式 表 征 、 


二 < 


语 境 信息 对 语义 表征 的 影响 、 句 法 与 语义 加 工区 域 
的 分 离 以 及 篇 章 语义 表征 等 问题 上 取得 了 诸多 新 发 现 。 


然而 , 在 回答 语言 认 知 及 其 脑 机 制 等 相关 问题 时 ， 自 然 语 言 处 理 技术 也 存在 一 定 的 局 限 
近年 来 基于 神经 网 络 和 深度 学 习 技术 的 语言 模型 内 
部 结构 越 来 越 复 杂 和 庞大 , 例如 最 近 的 GTP-3 模型 参数 量 达到 了 1750 亿 (Brown etal., 2020), 
尽管 在 语言 任务 上 的 表现 较 好 , 但 庞大 的 参数 量 和 复杂 的 结构 使 得 模型 的 可 解释 性 较 差 : 模 
型 输出 的 词 向 量 反映 了 语言 哪些 方面 的 特征 ? 模型 通过 哪些 关键 步 又 获得 了 这 些 特征 ? 这 


性 。 首 先是 NLP 模型 的 可 解释 性 问题 。 


些 问题 目前 尚 无 确切 答案 。 目 前 可 以 采 月 


随机 向 量 代 替 词 向 量 等 ) 探 究 大 脑 对 茶 种 
了 NLP 在 语言 认 知 研究 上 的 解释 效力 与 


不 同 模型 在 训练 材料 、 网 络 架构 、 参 数量 以 及 训练 任务 等 多 个 方 


模型 对 比 等 方式 (例如 消除 或 保留 语 境 信息 、 采 用 


这 息 的 加 工 ， 但 低 可 解释 性 仍然 在 一 定 程度 上 限制 


应 月 


潜力 。 其 次 ， 模 型 的 数量 和 类 型 正 迅速 增长 ， 


四 存在 差异 ， 导 致 输出 的 词 


4 


向 量 不 尽 相 同 。 在 使 用 词 向 量 与 大 脑 活 动 建立 映射 关系 时 , 模型 之 间 编 码 或 解码 的 表现 差异 
来 源 变 得 模糊 , 即使 采用 相同 的 预 训 练 模 型 来 获得 相同 的 模型 参数 ,也 面临 着 模型 抽样 误差 
等 问题 。 此 外 ,NLP 模型 的 构建 与 人 类 习 得 语义 的 途径 不 同 , 其 内 在 计算 与 加 工 机 制 也 可 能 
与 人 脑 存在 本 质 差 异 。 人 类 的 语言 习 得 是 不 断 与 世界 环境 进行 多 模 态 交互 的 过 程 , 而 目前 主 
流 NLP 模型 绝 大 多 数 只 有 文字 一 个 模 态 ， 并 且 难 以 做 到 像 人 类 一 样 基于 短 短 几 次 反馈 就 习 
得 新 知识 或 改变 原 有 观念 。 另 一 方面 , NLP 模型 的 训练 语 料 越 来 越 多 、 结 构 越 来 越 复杂 , 在 
逻辑 推理 、 知 识 迁 移 等 高 级 语言 任务 上 却 仍 然 表 现 较 差 .， NLP 是 否 真正 习 得 语言 目前 是 一 
个 备 受 关注 的 问题 。 因 此 ， 借 助 NLP 模型 能 够 多 大 程度 解释 人 脑 中 的 语义 表征 机 制 仍 需 未 
来 更 深入 的 研究 。 鉴 于 以 上 局 限 性 ,在 应 用 语言 模型 提取 刺激 特征 时 ,研究 者 需 根据 研究 问 
题 选择 恰当 的 模型 ， 结 合 实验 设计 对 模型 的 有 效 性 进行 测试 ， 并 谨慎 解 释 实 验 结果 。 

值得 注意 的 是 , NLP 模型 并 不 总 是 语义 表示 的 唯一 解 或 最 优 解 。 当 前 心理 学 的 其 他 语义 
表示 方法 在 一 些 情况 下 也 取得 了 不 错 的 表现 , 并 且 具 有 较 强 的 可 解释 性 , 例如 特征 列举 法 能 
够 直观 地 反映 概念 不 同 特征 在 记忆 中 的 凸显 度 (Cree & McRae, 2003); 特征 评定 法 能 获得 概 
念 在 多 个 维度 (例如 感知 觉 、 情 绪 等 ) 上 的 属性 强 弱 ， 也 能 以 分 布 式 表示 对 概念 进行 相似 性 等 
计算 (Binder et al., 2016); 网 络 模型 能 够 清晰 地 反映 概念 之 间 的 层级 与 关系 结构 (Solomon et 
al., 2019; Zhu et al., 2022)。 基 于 纯 文 本 进行 训练 的 NLP 模型 并 不 一 定 能 完整 捕获 人 类 的 语 
义 知 识 以 及 加 工 特点 (如 推理 、 联 想 、 多 模 态 等 )， 例 如 最 近 对 概念 语义 脑 表征 的 研究 发 现 ， 
相 比 于 NLP 模型 ， 基 于 体验 属性 的 特征 评分 与 大 脑 的 表征 相似 性 更 高 ， 并 且 使 用 偏 相关 控 
制 共 享 信息 的 影响 之 后 ， 体 验 属 性 仍 表现 出 与 大 脑 显著 的 表征 相似 性 ， 而 NLP 模型 则 相关 
不 显著 ， 说 明 人 脑 对 概念 的 表征 中 存在 NLP 模型 尚未 学 习 到 的 多 模 态 信息 (Fernandino etal., 
2022; Tong etal.,2022)。 因 此 ,NLP 模型 与 传统 的 心理 学 语义 表示 方法 并 无 绝对 的 优 劣 之 分 
它们 提供 了 互补 的 信息 与 作用 (Kumar, 2021): 在 小 规模 语 料 中 ， 传 统 方法 虽然 颗粒 度 较 粗 ， 
但 其 高 解释 性 有 助 于 对 研究 理论 与 假设 进行 验证 ;在 大 规模 语 料 和 自然 刺激 中 ， 虽 然 NLP 
模型 较 低 的 可 解释 性 使 得 向 量 维度 含义 不 明确 , 但 其 能 够 便捷 地 获取 语 境 化 的 语义 表示 , 并 
通过 模型 对 比 的 方式 对 不 同 信 息 内 容 进 行 考察 。 

下 一 步 ， 研 究 者 还 可 从 以 下 几 个 方面 深入 拓展 NLP 技术 在 神经 语言 学 中 的 应 用 : 

(1) 引 入 基于 图 模型 的 语义 表示 方法 。 除了 基于 分 布 式 假设 的 文本 表示 方法 , 图 模型 也 是 
NLP 领域 中 较为 成 熟 的 表示 文本 关系 的 技术 (例如 知识 图 谱 )。 在 图 模型 中 ,网络 的 节点 代表 
语言 要 素 ( 词 、 概 念 、 实 体 、 句 子 、 篇 章 等 )， 网 络 的 边 代表 语言 要 素 间 的 关系 。 以 知识 图 谱 
为 例 ， 图 模型 的 建构 充分 利用 了 语言 要 素 的 属性 关系 、 语 言 学 先 验 知识 和 世界 知识 等 信息 ， 


lin 
四 


与 神经 网 络 模型 相 比 具有 更 高 的 可 解释 性 , 语义 关系 明确 ,易于 进行 常识 推理 任务 。 但 图 模 
型 用 于 表示 语义 的 数据 结构 较为 复杂 , 难以 直接 使 用 图 模型 的 语义 表示 对 脑 活动 数据 进行 直 
接 建 模 ， 研 究 者 可 采用 间接 的 方式 ， 从 图 模型 中 提取 语义 关系 或 距离 信息 ， 随 后 使 用 RSA 
等 方法 考察 大 脑 对 语义 关系 的 加 工 。 以 WordNet 为 例 ， 该 数据 库 根据 单词 间 的 语义 关系 ( 例 
如 从 属 关系 )， 将 单词 按照 树 状 结构 进行 组 织 。WordNet 中 两 个 词 之 间 的 语义 距离 可 通过 连 


通 这 两 个 词 所 需 的 最 短路 径 来 度量 (Carota et al., 2021; Fernandino et al., 2022; Wurm & 


Caramazza, 2019)， 例 如 ， 从 “ 猫 (cab ”的 节点 到 达 “ 鼠 (mouse)” 的 节点 需要 经 过 以 下 路 径 : 
猫 一 猎 科 动物 一 食肉 动物 一 胎盘 哺乳 动物 一 哮 齿 类 一 鼠 ， 因 此 这 两 个 词 的 关系 距离 为 5。 
(2) 应 用 多 模 态 融合 的 深度 语言 模型 。 在 自然 交流 情境 下 , 人 们 对 信息 的 加 工 与 理解 常常 
融合 了 声音 、 图像、 文本 等 多 个 模 态 , 并 且 加 工 单个 概念 时 往往 也 会 提取 多 个 模 态 的 信息 (Bi, 
2021)， 然 而 传统 的 实验 方法 和 基于 纯 文 本 的 NLP 模型 难以 融合 与 量化 多 模 态 信息 ， 尚 不 能 


全 面 描述 人 脑 对 于 概念 的 表征 内 容 (Dubova, 2022; McClelland et al., 2020)。 人 工 智能 领域 已 


© 经 开发 了 多 模 态 融合 的 深度 语义 表示 方法 (Lahat et al., 2015; Shaonan Wang et al., 2018; Zhu 
(a | 
etal.,2022)。 运 用 多 模 态 语言 模型 ， 可 进一步 深入 探究 大 脑 对 不 同 模 态 信息 的 加 工 机 制 ， 例 


如 基于 语言 和 基于 体验 的 两 类 信息 (Bi, 2021; Paivio, 1991) 在 大 脑 中 的 表征 分 布 与 方式 、 角 色 
地 位 以 及 整合 方式 与 程度 等 。 

(3) 运 用 语言 模型 评估 特殊 人 群 的 语言 能 力 。 例 如 ， 对 正常 人 和 失语 症 ( 或 自 闭 症 、 精 神 
分 裂 症 等 ) 患 者 的 语言 产 出 进行 文本 分 析 ， 获 得 其 语义 类 别 、 语 义 模糊 性 、 词 频 分 布 和 语义 
结构 等 多 方面 特征 (Day et al., 2021; Nevler et al., 2020)。 基 于 这 些 特征 建立 分 类 或 预测 模型 ， 
PT 有 助 于 提高 语言 能 力 与 疾病 评估 的 准确 性 或 受 测 者 的 接受 程度 (de Boer et al., 2018; Fraser et 
al., 2016) ， 并 降低 评估 所 需 的 时 间 与 人 力 成 本 。 

(4) 利 用 脑 活动 数据 增强 对 深度 语言 模型 的 理解 或 改进 模型 。 现 今 的 深度 语言 模型 能 完 
成 各 种 各 样 的 语言 任务 , 但 人 们 对 模型 内 部 的 实现 机 制 依然 缺乏 清晰 的 认识 。 人 脑 是 世界 上 
唯一 能 真正 理解 自然 语言 的 加 工 系统 ， 理 解 深度 模型 的 一 个 思路 便 是 将 其 与 人 脑 进行 对 比 ， 
当前 已 有 部 分 研究 开始 基于 深度 模型 的 “类 脑 ” 情况 来 推测 模型 内 部 的 运行 机 理 或 解释 不 同 
模型 存在 差异 的 原因 。 例如 在 一 项 研究 中 , 研究 者 拟 探 究 不 同 语言 模型 以 及 同一 模型 内 部 不 
同 隐藏 层 对 语 境 信息 的 整合 能 力 (Toneva & Wehbe, 2019)。 研 究 者 使 用 fMRI 采集 了 被 试 阅读 
故事 (每 个 词 单独 呈现 在 屏幕 上 ) 时 的 脑 活动 ， 同 时 提取 了 不 同 NLP 模型 的 每 一 隐藏 层 对 故 
事 中 每 个 词 的 向 量 表 示 , 通过 岭 回 归 和 分 类 任务 计算 模型 输出 词 向 量 对 多 个 重要 语言 脑 区 活 
动 的 预测 程度 。 结 果 表 明 ， 当 用 于 计算 词 向 量 时 纳入 的 语 境 较 短 时 ( 少 于 10 ial), BERT 和 


区 | 


本 


Transformer T-XL 模型 的 中 间 层 对 脑 活动 的 预测 效果 优 于 较 浅 的 输入 层 ， 反 映 了 隐藏 层 的 语 
境 整 合 能 力 。 当 纳入 的 语 境 信息 超过 10 Sait, BERT 对 脑 活动 的 预测 效果 随 着 语 境 词 数 
量 的 增加 而 下 降 ， 而 Transformer T-XL 的 预测 效果 则 仍然 保持 缓慢 升 趋势 。 研 究 者 推测 ， 对 
脑 活动 预测 效果 最 佳 时 对 应 的 语 境 长 度 可 能 反映 了 模型 (或 隐藏 层 ) 整 合 情 境 信息 的 能 力 ， 结 


果 显 示 Transformer T-XL tt BERT 更 擅长 整合 长 距离 语 境 信息 ， 而 这 正 是 Transformer T-XL 


当初 的 设计 初衷 之 一 。 类 似 的 工作 还 发 现 NLP 的 语言 任务 能 力 和 对 大 脑 活动 的 预测 能 力 存 


在 显著 正 相 关 (Caucheteux & King, 2022; Schrimpf et al., 2021)。 更 进一步 ， 还 有 研究 者 对 模 


型 进行 微调 ， 发 现 提高 模型 对 脑 活动 预测 能 力 的 同时 (使 模型 更 “类 脑 ”) 显 车 改善 了 模型 在 


多 个 语言 任务 上 的 表现 (Schwartz etal., 2019; Toneva & Wehbe, 2019). 

以 上 研究 表明 ,通过 与 人 脑 的 认 知 和 神经 加 工 过 程 作对 比 来 理解 甚至 改进 深度 语言 模型 
这 一 方向 具有 很 大 洪 力 。 但 由 于 人 类 思维 的 隐蔽 性 和 当前 脑 成 像 技 术 在 时 间 和 空间 分 辨 率 上 
的 局 限 性 以 及 低 信 噪 比 等 问题 ， 进 行 “类 脑 ” 分 析 或 对 NLP 模型 内 部 的 认 知 机 制 进 行 探究 
时 , 仍 需 利用 严格 的 实验 控制 和 先 验 知识 对 结果 进行 约束 , 或 配合 其 他 模型 解释 方法 共同 做 


出 推理 (Sun et al., 2021)。 
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Abstract: How semantics are represented in human brain is a central issue in cognitive neuroscience. 
Previous studies typically address this issue by artificially manipulating the properties of stimuli or 
task demands. Having brought valuable insights into the neurobiology of language, this 
psychological experimental approach may still fail to characterize semantic information with high 
resolution, and have difficulty quantifying context information and high-level concepts. The 
recently-developed natural language processing (NLP) techniques provide tools to represent the 
discrete semantics in the form of vectors, enabling automatic extraction of word semantics and even 
the information of context and syntax. Recent studies have applied NLP techniques to model the 
semantic of stimuli, and mapped the semantic vectors onto brain activities through representational 
similarity analyses or linear regression. A consistent finding is that the semantic information is 
represented by a vastly distributed network across the frontal, temporal and occipital cortices. Future 
studies may adopt multi-modal neural networks and knowledge graphs to extract richer information 
of semantics, apply NLP models to automatically assess the language ability of special groups, and 
improve the interpretability of deep neural network models with neurocognitive findings. 
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